ارئه روشی نوین جهت طبقه بندی متون فارسی

پایان نامه
چکیده

متن کاوی به دلیل حجم وسیعی از اطلاعات که به صورت متنی ذخیره شده، پتانسیل کاربردی بسیار بالایی دارد. یکی از مهمترین کاربردهای متن کاوی طبقه بندی متون به لحاظ موضوعی میباشد. در این مقاله سعی بر آن داشته ایم تا با توجه به روشهای مختلف طبقه بندی متون فارسی، روشی نوین در جهت افزایش دقت و کارآیی طبقه بندی متون ارائه دهیم. برای طبقه بندی متون یک روال پنج مرحله ای را در نظر گرفته ایم.مرحله جداسازی کلمات از خبر متن خبر به توکن هایی از کلمات شکسته می شود. در پیش پردازش، داده هایی که هیچ اطلاعات مفیدی درباره کلاس یک خبر ندارند حذف می شوند. گام های مورد نیاز برای پیش پردازش به ریشه یابی و حذف کلمات stop word تقسیم می شوند. برای استخراج ویژگی، روشهای تکرار سند و icf-uni بکار گرفته شده است. برای نمایش بردار ویژگی برای هر خبر از tfو tf-idf استفاده شده است.برای وزن دهی مجدد به بردار ویژگی روش جدیدی با استفاده از ارتباط بین ویژگی ها و موضوع خبر ارائه شده است. برای طبقه بندی متون نیز از الگوریتم های k نزدیک ترین همسایه و رده بندی بیزین چند متغیره با tf استفاده شده است. در این پایان نامه از مجموعه داده های همشهری که شامل بیش از 318 هزار مقاله در زمینه های مختلف (علمی ،اقتصادی ،سیاسی ،ادبی،ورزشی و غیره ) می باشد برای ارزیابی نتایج استفاده شده است. پیاده سازی روش پیشنهادی با ارائه آنتروپی در پیش پردازش برای حذف کلمات حشو و همچنین وزن دهی مجدد ویژگی ها موجب بهبود در نتایج کلی شده است و در بهترین حالت بازشناسی، اخبار اقتصادی با 30 درصد بوده است.

منابع مشابه

سیستم شناسایی و طبقه بندی اسامی در متون فارسی

Name entity recognition (NER) is a system that can identify one or more kinds of names in a text and classify them into specified categories. These categories can be name of people, organizations, companies, places (country, city, street, etc.), time related to names (date and time), financial values, percentages, etc. Although during the past decade a lot of researches has been done on NER in ...

متن کامل

روشی نوین برای دسته بندی متون فارسی با استفاده از قواعد انجمنی

امروزه مدیریت مبتنی بر محتوای متون، به علت رشد سریع و در دسترس قرار گرفتن متون به شکل دیجیتالی، از اهمیت زیادی برخوردار است. از طرفی دیگر یکی از روش های مهم در سازمان دهی اطلاعات، دسته بندی اسناد زبان طبیعی در دسته های از قبل مشخص شده است. با توجه به اهمیت موضوع و کاری که در این زمینه برای زبان های دیگر دنیا انجام شده است، نیاز به دسته بندی متون فارسی به خوبی احساس می شود. در سال های اخیر، الگو...

روشی نوین به منظور طبقه بندی داده های چند بازگشتی لایدار با استفاده از اطلاعات هندسی مجاورتی و فضای پدیده

داده‌های اخذ شده توسط سیستم‌های لیزر اسکنر هوایی به دلیل برخورداری از مزایایی نظیر دقت هندسی نسبتاً بالا و تراکم مکانی بالای نقاط، اطلاعات هندسی متنوع و منحصر به فردی از سطوح فیزیکی عوارض فراهم می‌آورند. طبقه‌بندی و تفکیک داده‌<...

متن کامل

ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

برای دسته­بندی متن از تکنیک­های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می‌شود به طور کلی هدف یک دسته بند متون، دسته­بندی اسناد در قالب تعداد معینی از دسته­های از پیش تعیین شده می­باشد. هر سند می‌تواند در یک، چند و یا هیچ دسته‌ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته­ها قرار می‌گیرد. این موضوع می‌تواند در قالب یک ی...

متن کامل

ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

برای دسته­بندی متن از تکنیک­های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود به طور کلی هدف یک دسته بند متون، دسته­بندی اسناد در قالب تعداد معینی از دسته­های از پیش تعیین شده می­باشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته­ها قرار می گیرد. این موضوع می تواند در قالب یک ی...

متن کامل

ارائه روشی نوین جهت محاسبه تلفات سالیانه شبکه های توزیع

یکی از مسائل حائز اهمیت در شبکه‌های توزیع، مسئله تلفات این شبکه‌ها می‌باشد. تابع تلفات سالیانه انرژی عمدتاً جزء توابع اصلی در مسائل مربوط به بهره‌برداری و توسعه بهینه شبکه‌های توزیع است. جهت محاسبه تلفات سالیانه انرژی شبکه توزیع نیاز انجام محاسبات پخش بار در کلیه ساعات سال است، که این موضوع نیازمند حجم و زمان بالای محاسبات است. در این مقاله با استفاده از مدل بار شبکه IEEE-RTS، یک مدل بار جدید تح...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه اراک - دانشکده کامپیوتر و فناوری اطلاعات

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023